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上 节 课 我 们 主要 介绍 了 Support Vector Regression， 将 kernel model 引 入 到 regression 
中 。 首 先 ， 通 过 将 ridge regression 和 representer theorem 结 合 起 来 ， 得 到 kernel ridge 
regression。 但 是 其 解 是 dense 的 ， 即 不 部 分 不 为 零 。 为 了 得 到 sparse 解 ， 我 们 将 
regularized tube error 和 Lagrange dual 结 合 起 来 ， 利 用 SVM dual 的 推导 方法 ， 得 到 
support vector regression 的 sparse 解 。 本 系列 1-6 节 课 主 要 介绍 Kernel Models 及 其 应 
用 ， 从 本 节 课 开始 ， 讲 介绍 Aggregation Models， 即 如 何 将 不 同 的 hypothesis 和 
features 结 合 起 来 ， 让 模型 更 好 。 本 节 课 将 介绍 其 中 的 两 个 方法 ， 一 个 是 Blending， 一 


个 是 Bagging。 


Motivation of Aggregation 


首先 举 个 例子 来 说 明 为 什么 要 使 用 Aggregation。 假 如 你 有 T 个 朋友 ， 每 个 朋友 向 你 预 
测 推荐 明天 某 支 股票 会 涨 还 是 会 跌 ， 对 应 的 建议 分 别 是 gl , q?, .…. , gr ， 那 么 你 该 选 
择 哪 个 朋友 的 建议 呢 ? 即 最 终 选 择 对 股票 预测 的 gi (x) 是 什么 样 的 ? 


第 一 种 方法 是 从 T 个 朋友 中 选择 一 个 最 受信 任 ， 对 股票 预测 能 力 最 强 的 人 ， 直 接听 从 

他 的 建议 就 好 。 这 是 一 种 普遍 的 做 法 ， 对 应 的 就 是 validation 思 想 ， 即 选择 犯错 误 最 小 
的 模型 。 第 二 种 方法 ， 如 果 每 个 朋友 在 股票 预测 方面 都 是 比较 厉害 的 ， 都 有 各 自 的 专 
长 ， 那 么 就 同时 考虑 T 个 朋友 的 建议 ， 将 所 有 结果 做 个 投票 ， 一 人 一 票 ， 最 终 决 定 出 

对 该 支 股 票 的 预测 。 这 种 方法 对 应 的 是 uniformly 思 想 。 第 三 种 方法 ， 如 果 每 个 朋友 水 
平 不 一 ， 有 的 比较 厉害 ， 投 票 比重 应 该 更 大 一 些 ， 有 的 比较 差 ， 投票 比重 应 该 更 小 一 
些 。 那 么 ,仍然 对 T 个 朋友 进行 投票 ， 只 是 每 个 人 的 投票 权重 不 同 。 这 种 方法 对 应 的 

是 non-uniformly 的 思想 。 第 四 种 方法 与 第 三 种 方法 类 似 ， 但 是 权重 不 是 固定 的 ， 根 据 
不 同 的 条 件 ， 给 予 不 同 的 权重 。 比 如 如 果 是 传统 行业 的 股票 ， 那 么 给 这 方面 比较 厉害 
的 朋友 较 高 的 投票 权重 ， 如 果 是 服务 行业 ， 那 么 就 给 这 方面 比较 厉害 的 朋友 较 高 的 投 
票 权 重 。 以 上 所 述 的 这 四 种 方法 都 是 将 不 同人 不 同意 见 融合 起 来 的 方式 ， 接 下 来 我 们 
就 要 讨论 如 何 将 这 些 做 法 对 应 到 机 器 学 习 中 去 。Aggregation 的 思想 与 这 个 例子 是 类 似 
的 ， 即 把 多 个 hypothesis 结 合 起 来 ， 得 到 更 好 的 预测 效果 。 





。 Select the most trust-worthy friend from their usual performance 
一 Validation! 


emix the predictions from all your friends uniformly 
一 let them vote! 


emix the predictions from all your friends non-uniformly 
一 Ilet them vote, but give some more ballots 


e。Ccombine the predictions conditionally 
一 ff [t satisfies some condition] give some ballots to friend ! 


将 刚刚 举 的 例子 的 各 种 方法 用 数学 化 的 语言 和 机 器 学 习 符 号 归纳 表示 出 来 ， 其 中 G(x) 
表示 最 终 选择 的 模型 。 


第 一 种 方法 对 应 的 模型 : 
G(zZ) = gi, (Z) with t, = argminte12,...,T Bova (gr; ) 
第 二 种 方法 对 应 的 模型 : 


G(z) = sin 1: 9%(z)) 
第 三 种 方法 对 应 的 模型 : 
G(z) = > oa.g(z)aoithas >0 
ei 
第 四 种 方法 对 应 的 模型 : 


G(x) = sign(》 ， qi (zx): g(x)) with q(x)>=>0 


t=1 


。 Select the most trust-worthy friend from their usual performance 
G(x) = gi, (x) with t, = argminicf12… T} Eval(9; ) 
emix the predictions from all your friends uniformly 
G(X) = Sign (Ze 1 -gt(x 
e mix the predictions from all your friends non-uniformly 
G(x) = sign b> Qt ， gi(x) ) with ar 二 0 

。include select: at = [Eva(g; ) smallest] 

e include uniformly: at =1 
e。Ccombine the predictions conditionally 

G(x) = sign (D1 9:(x) :go0) with qi(x) > 0 


。 include non-uniformly: gq:(X) = oar 


注意 这 里 提 到 的 第 一 种 方法 是 通过 验证 集 来 选择 最 佳 模 型 ， 不 能 使 用 思 ;,, (91 ) 来 代替 
val (9: )。 经 过 Validation， 选 择 最 小 的 Bay， 保 证 Bowt 最 小 ， 从 而 将 对 应 的 模型 作 
为 最 佳 的 选择 。 


但 是 第 一 种 方法 只 是 从 众多 可 能 的 hypothesis 中 选择 最 好 的 模型 ， 并 不 能 发 挥 集体 的 
智慧 。 而 Aggregation 的 思想 是 博采众长 ， 将 可 能 的 hypothesis 优 势 集合 起 来 ， 将 集体 
智慧 融合 起 来 ， 使 预测 模型 达到 更 好 的 效果 。 


下 面 先 来 看 一 个 例子 ， 通 过 这 个 例子 说 明 为 什么 Aggregation 能 work 得 更 好 。 





如 上 图 所 示 ， 和 平面 上 分 布 着 一 些 待 分 类 的 点 。 如 果 要 求 只 能 用 一 条 水 平 的 线 或 者 垂直 
的 线 进行 分 类 ， 那 不 论 怎 么 选取 直线 ， 都 达 不 到 最 佳 的 分 类 效果 。 这 实际 上 就 是 上 面 
介绍 的 第 一 种 方法 : validation。 但 是 ， 如 果 可 以 使 用 集体 智慧 ， 比 如 一 条 水 平 线 和 两 
条 垂直 线 组 合 而 成 的 图 中 折线 形式 ， 就 可 以 将 所 有 的 点 完全 分 开 ， 得 到 了 最 优化 的 预 
测 模型 。 


这 个 例子 表明 ， 通 过 将 不 同 的 hypotheses 均 匀 地 结合 起 来 ， 得 到 了 比 单 一 hypothesis 
更 好 的 预测 模型 。 这 就 是 aggregation 的 优势 所 在 ， 它 提高 了 预测 模型 的 power， 起 到 
了 特征 转换 (feature transform) 的 效果 。 


e mix different weak 
hypotheses uniformly 
一 G(X) ‘strong’ 

e。 aggregation 
—> feature transform (?) | 


使 用 PLA 算 法 ， 可 





这 无 数 条 PLA 选 择 出 来 的 直线 对 应 的 hypothesis 都 是 满足 分 类 要 求 的 。 但 是 我 们 最 想 
得 到 的 分 类 直线 是 中 间 那 条 距离 所 有 点 都 比较 远 的 黑色 直线 ， 这 与 之 前 SVM 目标 是 一 
致 的 。 如 果 我 们 将 所 有 可 能 的 hypothesis 结 合 起 来 ， 以 投票 的 方式 进行 组 合 选择 ， 最 
终 会 发 现 投票 得 到 的 分 类 线 就 是 中 间 和 黑色 那 条 。 这 从 哲学 的 角度 来 说 ， 就 是 对 各 种 
效果 较 好 的 可 能 性 进行 组 合 ， 得 到 的 结果 一 般 是 中 庸 的 、 最 合适 的 ， 即 对 应 图 中 那 条 
黑色 直线 。 所 以 ，aggregation 也 起 到 了 正则 化 (regularization) 的 效果 ， 让 预测 模型 
更 具有 代表 性 。 


e mix different random-PLA 
hypotheses uniformly 
一 G(X) moderate 

。 aggregation 
一 regularization (?) 


基于 以 上 的 两 个 例子 ， 我 们 得 到 了 aggregation 的 两 个 优势 : feature transform 和 
regularization。 我 们 之 前 在 机 器 学 习 基 石 课程 中 就 介绍 过 ，feature transform 和 
regularization 是 对 立 的 ， 还 把 它们 分 别 比 作 踩 油门 和 踩 刹车 。 如 果 进 行 feature 
transform， 那 么 regularization 的 效果 通常 很 差 ， 反 之 亦 然 。 也 就 是 说 ， 单 一 模型 通常 
只 能 倾向 于 feature transform 和 regularization 之 一 ， 在 两 者 之 间 做 个 权衡 。 但 是 
aggregation 却 能 将 feature transform 和 regularization 各 自 的 优势 结合 起 来 ， 好 比 把 油 
门 和 刹车 都 控制 得 很 好 ， 从 而 得 到 不 错 的 预测 模型 。 


Uniform Blending 


那 对 于 我 们 已 经 选择 的 性 能 较 好 的 一 些 矩 gf ， 如 何 将 它们 进行 整合 、 合 并 ， 来 得 到 最 
圭 的 预测 模型 呢 ” 这 个 过 程 称 为 blending。 


最 常用 的 一 种 方法 是 uniform blending， 应 用 于 classification 分 类 问题 ， 做 法 是 将 每 一 
个 可 能 的 矩 赋予 权重 1， 进 行 投 票 ， 得 到 的 G(x) 表 示 为 : 


9(Z) = sign(> 1.9(z) 


这 种 方法 对 应 三 种 情况 : 第 一 种 情况 是 每 个 候选 的 矩 % 都 完全 一 样 ， 这 跟 选 其 中 任意 
一 个 % 效 果 相 同 ; 第 二 种 情况 是 每 个 候选 的 矩 % 都 有 一 些 差 别 ， 这 是 最 常 遇 到 的 ， 大 
都 可 以 通过 投票 的 形式 使 多 数 意见 修正 少数 意见 ， 从 而 得 到 很 好 的 模型 ， 如 下 图 所 
示 ; 第 三 种 情况 是 多 分 类 问题 ， 选 择 投票 数 最 多 的 那 一 类 即 可 。 


e Same 9i (autocracy): 
as good as one single og: 


e Very different 9; (diversity + democracy): x 网 
majority can correct minority > O 

e。Similar results with uniform voting for a 
multiclass | > OO 


G(x) = argmaxy [gi(x) = 各 
1<K<K i=]1 





如 果 是 regression 回 归 问 题 ，uniform blending 的 做 法 很 简单 ， 就 是 将 所 有 的 矩 % 求 平 
均值 : 


uniform blending for regression 对 应 两 种 情况 : 第 一 种 情况 是 每 个 候选 的 和 拭 9i 都 完全 
一 样 ， 这 跟 选 其 中 任意 一 个 % 效 果 相 同 ; 第 二 种 情况 是 每 个 候选 的 和 矩 9: 都 有 一 些 差 
别 ， 有 的 % > f(z)， 有 的 gt < f(x)， 此 时 求 平均 值 的 操作 可 能 会 消去 这 种 大 于 和 
小 于 的 影响 ， 从 而 得 到 更 好 的 回归 模型 。 因 此 ， 从 直觉 上 来 说 ， 求 平均 值 的 操作 更 加 
稳定 ， 更 加 准确 。 


e Same g: (autocracy): 
as good as one single or: 


e Very different g: (diversity + democracy): 
some 9i(X) > f(x), Some 9gi(X) < f(x) 
—> average could be more accurate than individual 


对 于 uniform blending， 一 般 要 求 每 个 候选 的 和 矩 %: 都 有 一 些 差 别 。 这 样 ， 通 过 不 同和 矩 g 
的 组 合 和 集体 智慧 ， 都 能 得 到 比 单 一 和 矩 %: 更 好 的 模型 。 


刚才 我 们 提 到 了 uniform blending for regression 中 ， 计 算 gi 的 平均 值 可 能 比 单一 的 gi 
更 稳定 ， 更 准确 。 下 面 进行 简单 的 推导 和 证 明 。 


avg ((g:(*) —f(x))) = avg(9f 一 2gtf 十 三 ) 
= avg(9f) -2Gf+f 
= avg(gr)—-G +(G-—f) 
= avg(g) -2G° +G+(G-f) 
= avg(g -2gG+G)+(G-f) 
= avg((g:— G)) +(G-—f) 


推导 过 程 中 注意 G(t) 二 avg(gt)。 经 过 推导 ,我 们 发 现 avg((gi (x) 一 f(x)?) 与 
(G 一 有 ?之 间 差 了 avg((g: 一 G)?) 项 ， 且 是 大 于 零 的 。 从 而 得 到 gi 与 目标 函数 {的 差 
值 要 比 G 与 { 的 差 值 大 。 


刚才 是 对 单一 的 x 进 行 证 明 ， 如 果 从 期 望 角度 ， 对 整个 x 分 布 进行 上 述 公 式 的 整理 ， 得 


到 : 


avg (2(g: — G)?) + Eoun(G) 
> + Eout(G) 


avg (Eout(9:)) 


从 结果 上 来 看 ，avg( owt (9t)) 之 Bout (G)， 从 而 证 明了 从 平均 上 来 说 ,计算 gi 的 
平均 值 Gtt) 要 比 单一 的 % 更 接近 目标 函数 f，regression 效 果 更 好 。 


我 们 已 经 知道 G 是 数目 为 T 的 9 的 平均 值 。 令 包含 N 个 数据 的 样本 D 独 立 同 分 布 于 已” 
， 每 次 从 新 的 Di 中 学 习 得 到 新 的 g; ， 在 对 gi 求 平均 得 到 G， 当 做 无 限 多 次 ， 即 T 趋 向 
于 无 穷 大 的 时 候 : 


ee . 总 
0 一 1077T yoo G = limT_yoo > 9 = epA(D) 
t=1 
consider a virtual iterative process that for t= 1,2,...,7T 
@ request size-N data Di from PN (i.i.d.) 


©@ obtain g: by A(D:) 


一 oo To 


E E J 
og = lim G= lim T2091-$ A(D) 


当 T 趋 于 无 穷 大 的 时 候 ，G = 二 9， 则 有 如 下 等 式 成 立 : 


avg (Eou(gt)) = avg (E(g:— 5)?) + Eou(5) 
expected performance of A = expected deviation to consensus 
十 performance of consensus 


。 performance of consensus: called bias 

se。 expected deviation to consensus: called variance | 
上 述 等 式 中 左边 表示 演算 法 误差 的 期 望 值 ;右边 第 二 项 表示 不 同 % 的 平均 误差 共识 ， 
用 偏差 bias 表 示 ; 右边 第 一 项 表示 不 同 % 与 共识 的 差距 是 多 少 ， 反 映 % 之 间 的 偏差 ， 
用 方差 variance 表 示 。 也 就 是 说 ， 一 个 演算 法 的 平均 表现 可 以 被 拆 成 两 项 ， 一 个 是 所 
有 gt 的 共识 ， 一 个 是 不 同 gi 之 间 的 差距 是 多 少 ， 即 bias 和 variance。 而 uniform 
blending 的 操作 时 求 平均 的 过 程 ， 这 样 就 削减 弱化 了 上 式 第 一 项 variance 的 值 ， 从 而 演 
算法 的 表现 就 更 好 了 ， 能 得 到 更 加 稳定 的 表现 。 


Linear and Any Blending 


上 一 部 分 讲 的 是 uniform blending， 即 每 个 gt 所 占 的 权重 都 是 1， 求 平均 的 思想 。 下 面 
我 们 将 介绍 linear blending， 每 个 gi 赋予 的 权重 cw 并 不 相同 ， 其 中 Qt 之 0。 我 们 最 终 
得 到 的 预测 结果 等 于 所 有 gi 的 线性 组 合 。 


linear blending: known g:, each to be given ar ballot 


T 


G(X) = sign (2 oo With a: > 0 


= 


如 何 确定 a 的 值 ， 方 法 是 利用 误差 最 小 化 的 思想 ， 找 出 最 佳 的 at ， 使 Bin, (a ) 取 最 小 
值 。 例 如 对 于 linear blending for regression， 五 im (a) 可 以 写成 下 图 左边 形式 ， 其 中 
Qt 是 带 求 解 参数 ，gi (Zn ) 是 每 个 矩 得 到 的 预测 值 ， 由 已 知 矩 得 到 。 这 种 形式 很 类 似 于 
下 图 右边 的 形式 ， 即 加 上 特征 转换 9; (zn ) 的 linear regression 模 型 。 两 个 式 子 中 的 
gt (zn) 对 应 于 内 (Zn ) ， 唯 一 不 同 的 就 是 linear blending for regression 中 at > 0， 而 


linear regression 中 2w; 没 有 限制 |。 


computing 'good ai : min Ein(a) 










linear blending for regression LinReg + transformation 





1 T 1 .nN gd 
min N > Jpn 一 和 aigt(Xnm) min N Mn Wigi(Xn) 
2 让 1 t=1 n=] Fe 





like two-level learning, remember? :-) 








linear blending = LinModel + hypotheses as transform + constraints 


这 种 求解 oi 的 方法 就 像 是 使 用 two-level learning， 类 似 于 我 们 之 前 介绍 的 probabilistic 
SVM。 这 里 ,我 们 先 计算 gi (zx )， 再 进行 linear regression 得 到 oa; 值 。 总 的 来 说 ， 
linear blending 由 三 个 部 分 组 成 : LinModel，hypotheses as transform ，constraints。 
其 中 值得 注意 的 一 点 就 是 ， 计 算 过 程 中 可 以 把 % 当成 feature transform， 求 解 过 程 就 
跟 之 前 没有 什么 不 同 ， 除 了 a > 0 的 条 件 限制 。 


linear blending = LinModel + hypotheses as transform + Constraints: 
1 T 
mn 2 err 区 2 alm 


我 们 来 看 一 下 linear blending 中 的 constraint ax 之 0。 这 个 条 件 是 否 一 定 要 成 立 呢 ?如 
果 a < 0， 会 带 来 什么 后 果 呢 ? 其实 at < 0 并 不 会 影响 分 类 效果 ， 只 需要 将 正 类 看 
成 负 类 ， 负 类 当成 正 类 即 可 。 例 如 分 类 问题 ， 判 断 该 点 是 正 类 对 应 的 at < 0， 则 它 就 
表示 该 点 是 负 类 ， 且 对 应 的 一 at > 0。 如 果 我 们 说 这 个 样本 是 正 类 的 概率 是 -99%， 
意思 也 就 是 说 该 样本 是 负 类 的 概率 是 99%。oa;t > 0 和 at < 0 的 效果 是 等 同 的 一 致 
的 。 所 以 ， 我 们 可 以 把 at > 0 这 个 条 件 舍 去 ， 这 样 linear blending 就 可 以 使 用 常规 方 
法 求解 。 


linear blending for binary classification 





foar <0 一 atgt(X) = |at| (—gi(X)) 
。 negative a; for g; = positive lo for —gr 
。 if you have a stock up/down classifier with 99% error, tell me! 
:-) 


in practice, often 
linear blending = LinModel + hypotheses as transform 十 ometnlS 





Linear Blending 中 使 用 的 % 是 通过 模型 选择 而 得 到 的 ， 利 用 validation， 从 Zirain 中 得 
到 gi ,9 ，……， 9。 然后 将 Diroi 中 每 个 数据 点 经 过 各 个 矩 的 计算 得 到 的 值 ， 代 入 到 
相应 的 linear blending 计 算 公式 中 ， 迁 代 优化 得 到 对 应 a 值 。 最 终 ， 再 利用 所 有 样本 数 
据 ， 得 到 新 的 % 代 蔡 9! ， 则 G(t) 就 是 gt 的 线性 组 合 而 不 是 gi ， 系 数 是 ov。 


in practice, often 
meme ag en 
by minimum Ei;, 


e recall: Selection by minimum Ein 
= 

一 best of best, paying cvc Lu nt ) 
t= 


e recall: linear blending includes selection as special case 
一 by setting a; = [Ea(9; ) smallest] 
e。 complexity price of linear blending with Ei (aggregation of best): 


(an) 





like selection, blending practically done with 
(Eval instead of Ein) + (9; from minimum Etrain) 


Given gi , 9 , ..., 97 from Duain, transform (Xn, yn) in Dval to 
(zn 三 中 (Xn), yn), where 中 (x) = (91 (X),... ,97(X)) 


Linear Blending 
©@ compute a 
= LinearModel ({(zn, yn)}) 


@ return Giine(x) = 
LinearHypothesis,, (中 (x))， 


Any Blending ( 
机 compute 0 

= AnyModel ({(zn, yn)} ) 
@ return Ganve(X) = 5( 中 (X))， 












where 中 (X) = (91(X),..., 97(X)) 


any blending: 
。 Dowerful, achieves conditional blending 
e but danger of overfitting, as always :-( 


除了 linear blending 之 外 ， 还 可 以 使 用 任意 形式 的 blending。linear blending 中 ，G(t) 是 
g(t) 的 线性 组 合 ; any blending 中 ，G( 可 以 是 glt) 的 任何 函数 形式 ( 非 线 性 ) 。 这 种 形 
式 的 blending 也 叫做 Stacking。any blending 的 优点 是 模型 复杂 度 提高 ， 更 容易 获得 
好 的 预测 模型 ， 缺 点 是 复杂 模型 也 容易 带 来 过 拟 合 的 危险 。 所 以 ， 在 使 用 any 
blending 的 过 程 中 要 时 刻 注意 避免 过 拟 合 友 生 ， 通 过 采用 regularization 的 方法 ， 让 模 
型 具有 更 好 的 泛 化 能 力 。 


Bagging(Bootstrap Aggregation) 


总 结 一 些 上 面 讲 的 内 容 ，blending 的 做 法 就 是 将 已 经 得 到 的 和 矩 % 进行 aggregate 的 操 
作 。 上 有 具体 的 aggregation 形 式 包括 : uniform，non-uniforn 和 conditional。 


blending: aggregate after getting g:; 
learning: aggregate as well as getting gr 


aggregation type blending learning 
Uniorm | voting/averaging | 3 
non-uniorm | mear | 7 
conditional stacking 


= 


现在 考虑 一 个 问题 : 如 何 得 到 不 同 的 % 呢 ”可 以 选取 不 同 模型 H， 可 以 设置 不 同 的 参 
数 ， 例 如 7、 人 迭代 次 数 n 等 ; 可 以 由 算法 的 随机 性 得 到 ， 例 如 PLA、 随 机 种 子 等 ; 可 以 
选择 不 同 的 数据 样本 等 。 这 些 方法 都 可 能 得 到 不 同 的 gi。 


learning gr for uniform aggregation: diversity important 
e diversity by different models: g1 E H1,92 € H2,...,g9T € HT 
e。 diversity by different parameters: GD with 7 = 0.001, 0.01, ..., 10 


e diversity by algorithmic randomness: 
random PLA with different random seeds 


e diversity by data randomness: 
within-cross-validation hypotheses g, 


那 如 何 利用 已 有 的 一 份 数据 集 来 构造 出 不 同 的 gt 呢 ? 首先 ， 我 们 回顾 一 下 之 前 介绍 的 
bias-variance， 即 一 个 演算 法 的 平均 表现 可 以 被 拆 成 两 项 ， 一 个 是 所 有 gi 的 共识 
(bias) ， 一 个 是 不 同 % 之 间 的 差距 是 多 少 (variance) 。 其 中 每 个 gi 都 是 需要 新 的 
数据 集 的 。 只 有 一 份 数据 集 的 情况 下 ， 如 何 构造 新 的 数据 集 ? 


expected performance of A = expected deviation to consensus 
十 performance of consensus 
consensus 5 = expected g; from Di; ~ PN 


其 中 ，g 是 在 和 矩 个 数 T 趋 向 于 无 穷 大 的 时 候 ， 不 同 的 gi 计算 平均 得 到 的 值 。 这 里 我 们 为 
了 得 到 9， 做 两 个 近似 条 件 : 


。 有 限 的 T; 
。 由 已 有 数据 集 D 构 造 出 D: PN ， 独 立 同 分 布 


第 一 个 条 件 没有 问题 ， 第 二 个 近似 条 件 的 做 法 就 是 bootstrapping。bootstrapping 是 统 
计 学 的 一 个 工具 ， 思 想 就 是 从 已 有 数据 集 D 中 模拟 出 其 他 类 似 的 样本 Di。 


。 consensus more stable than direct A(D), 
but comes from many more Di than the D on hand 
e。 Want: approximate 9 by 
e finite (large) T 
。 approximate gt = A(D;) from D: ~ PN using only D 


bootstrapping: a statistical tool that 
re-samples from D to ‘simulate’ Di: | 





bootstrapping 的 做 法 是 ， 假 设 有 N 笔 资料 ， 先 从 中 选 出 一 个 样本 ， 再 放 回去 ， 再 选择 
一 个 样本 ， 再 放 回去 ， 共 重复 N 次 。 这 样 我 们 就 得 到 了 一 个 新 的 N 笔 资料 ， 这 个 新 的 
方 ;中 可 能 包含 原 D 里 的 重复 样本 点 ， 也 可 能 没有 原 D 里 的 某 些 样本 ， 力 ,与 D 类 似 但 又 
不 完全 相同 。 值 得 一 提 的 是 ， 抽 取 - 放 回 的 操作 不 一 定 非 要 是 N， 次 数 可 以 任意 设 定 。 
例如 原始 样本 有 10000 个 ， 我 们 可 以 抽取 - 放 回 3000 次 ， 得 到 包含 3000 个 样本 的 万 ,也 
是 完全 可 以 的 。 利 用 bootstrap 进 行 aggragation 的 操作 就 被 称 为 bagging。 


IEETETEIT 





consider a virtual iterative consider a physical iterative 
process that for t= 1,2,...,T process that for t= 1,2,...,T 
@ request size-N data D: @ request size-N data D' 
from PN (i.i.d.) from bootstrapping 
@ obtain g; by A(D:) @ obtain gt by A(D!) 
G = Uniform({9:}) G = Uniform({9:}) 


下 面 举 个 实际 中 Bagging Pocket 算 法 的 例子 。 如 下 图 所 示 ， 先 通过 bootstrapping 得 到 
25 个 不 同样 本 集 ， 再 使 用 pocket 算 法 得 到 25 个 不 同 的 g: ， 每 个 pocket 算 法 迭代 1000 
次 。 最 后 ， 再 利用 blending， 将 所 有 的 % 融 合 起 来 ， 得 到 最 终 的 分 类 线 ， 如 图 中 黑 线 
所 示 。 可 以 看 出 ， 昌 然 bootstrapping 会 得 到 差别 很 大 的 分 类 线 ( 灰 线 ) ， 但 是 经 过 
blending 后 ， 得 到 的 分 类 线 效果 是 不 错 的 ， 则 bagging 通 常 能 得 到 最 佳 的 分 类 模型 。 








TpockET = 1000; Teac = 25 


值得 注意 的 是 ， 只 有 当 演 算法 对 数据 样本 分 布 比较 敏感 的 情况 下 ， 才 有 比较 好 的 表 


总 结 


本 节 课 主要 介绍 了 blending 和 bagging 的 方法 ， 它 们 都 属于 aggregation ， 即 将 不 同 的 
9t 合 并 起 来 ， 利 用 集体 的 智慧 得 到 更 加 优化 的 G(t)。Blending 通 常 分 为 三 种 情况 : 
Uniform Blending，Linear Blending 和 Any Blending。 其 中 ，uniform blending 采 样 最 
简单 的 一 人 一 票 " 的 方法 ，linear blending 和 any blending 都 采用 标准 的 two-level 
learning 方 法 ， 类 似 于 特征 转换 的 操作 ， 来 得 到 不 同 % 的 线性 组 合 或 非 线 性 组 合 。 最 
后 ， 我 们 介绍 了 如 何 利用 bagging (bootstrap aggregation) ， 从 已 有 数据 集 D 中 模拟 
出 其 他 类 似 的 样本 Di;， 而 得 到 不 同 的 g; ， 再 合并 起 来 ， 优 化 预测 模型 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 


